51 research outputs found

    Arquitecturas y métodos en sistemas de reconocimiento automático de habla de gran vocabulario

    Get PDF
    La tesis que se presenta en este documento, se enmarca en el área del Reconocimiento Automático de Habla y específicamente en el diseño de sistemas de reconocimiento de gran vocabulario. En todos los casos, la tecnología de base en lo que se refiere al modelado, la aportan los modelos ocultos de Markov que, hoy por hoy, representan el paradigma de modelado dominante. En concreto, se utilizarán técnicas de modelado discreto y semicontinuo, dependiente e independiente del contexto. En primer lugar, y a partir de una clasificación de alternativas arquitecturales en el diseño de sistemas de reconocimiento se hace un estudio teórico de la formulación del comportamiento de arquitecturas multi-módulo, tanto en coste computacional como en tasa de reconocimiento, definiendo una metodología de diseño para determinar la adecuación de módulos particulares de cara a su uso conjunto, que es validada con la experimentación correspondiente. Igualmente, se hace énfasis en el estudio y evaluación de algunas de las alternativas de compresión del espacio de búsqueda, estableciendo relaciones de compromiso entre coste y tasa, que es el binomio decisivo a la hora de abordar el diseño de sistemas en tiempo real. Se presentan estudios sobre distintas estrategias de organización del espacio de búsqueda orientadas a exploración y búsqueda con algoritmos de programación dinámica: árboles y grafos, deterministas y no deterministas, proponiendo soluciones prometedoras para incrementar la tasa de inclusión obtenible sobre estructuras de grafo (en las que la compresión del espacio de búsqueda produce peores resultados que con la búsqueda lineal o en árbol). Especialmente importante es el trabajo sobre estimación de listas variables de preselección, analizando métodos paramétricos y no paramétricos, centrándonos en el uso de redes neuronales como mecanismo estimador. Se ha propuesto una metodología de selección de parámetros de entrada, topologías y métodos de codificación, en base a su potencia discriminativa en una tarea simplificada. Dicha propuesta que ha sido ampliamente evaluada y comparada con el enfoque tradicional de uso de listas fijas, mostrando la consistente mejora tanto en tasa como en coste computacional conseguible con el uso de redes neuronales. Dicho estudio sobre listas variables ha sido extendido de forma natural al problema de estimación de fiabilidad de hipótesis, habiéndose aprovechando estos resultados, de nuevo, para la estimación de longitudes de listas, obteniendo también buenos resultados. En lo que respecta al repertorio de unidades de reconocimiento y a la composición de los diccionarios usados (en cuanto al uso de múltiples pronunciaciones), se aplican, evalúan y comparan métodos dirigidos por datos y basados en conocimiento. En el apartado de introducción de variantes de pronunciación se ha discutido ampliamente la problemática de contar con bases de datos representativas y haciendo énfasis en la importancia de atender y evaluar las mejoras marginales obtenidas con algunos de estos métodos. La evaluación de los resultados es planteada cuidadosamente, sobre dos tareas radicalmente distintas: habla telefónica independiente del locutor y habla aislada dependiente, ambas usando gran vocabulario (hasta 10000 palabras), lo que permite obtener conclusiones y claves de diseño para cada una de ellas, con lo que se consigue una generalización más fundamentada de su bondades o perjuicios. En este sentido se aplican análisis de validez y relevancia estadística que pongan en su justo sitio las mejoras o degradaciones observadas. En los procesos de evaluación se han propuesto nuevas métricas y mecanismos originales de comparación

    SD-TEAM: Interactive Learning, Self-Evaluation and Multimodal Technologies for Multidomain Spoken Dialog Systems

    Get PDF
    Speech technology currently supports the development of dialogue systems that function in limited domains for which they were trained and in conditions for which they were designed, that is, specific acoustic conditions, speakers etc. The international scientific community has made significant efforts in exploring methods for adaptation to different acoustic contexts, tasks and types of user. However, further work is needed to produce multimodal spoken dialogue systems capable of exploiting interactivity to learn online in order to improve their performance. The goal is to produce flexible and dynamic multimodal, interactive systems based on spoken communication, capable of detecting automatically their operating conditions and especially of learning from user interactions and experience through evaluating their own performance. Such ?living? systems will evolve continuously and without supervision until user satisfaction is achieved. Special attention will be paid to those groups of users for which adaptation and personalisation is essential: amongst others, people with disabilities which lead to communication difficulties (hearing loss, dysfluent speech, ...), mobility problems and non-native users. In this context, the SD-TEAM Project aims to advance the development of technologies for interactive learning and evaluation. In addition, it will develop flexible distributed architectures that allow synergistic interaction between processing modules from a variety of dialogue systems designed for distinct tasks, user groups, acoustic conditions, etc. These technologies will be demonstrated via multimodal dialogue systems to access to services from home and to access to unstructured information, based on the multi-domain systems developed in the previous project TIN2005-08660-C04

    HIFI-AV: An Audio-visual Corpus for Spoken Language Human-Machine Dialogue Research in Spanish

    Full text link
    In this paper, we describe a new multi-purpose audio-visual database on the context of speech interfaces for controlling household electronic devices. The database comprises speech and video recordings of 19 speakers interacting with a HIFI audio box by means of a spoken dialogue system. Dialogue management is based on Bayesian Networks and the system is provided with contextual information handling strategies. Each speaker was requested to fulfil different sets of specific goals following predefined scenarios, according to both different complexity levels and degrees of freedom or initiative allowed to the user. Due to a careful design and its size, the recorded database allows comprehensive studies on speech recognition, speech understanding, dialogue modeling and management, microphone array based speech processing, and both speech and video-based acoustic source localisation. The database has been labelled for quality and efficiency studies on dialogue performance. The whole database has been validated through both objective and subjective tests

    A Contextual GMM-HMM Smart Fiber Optic Surveillance System for Pipeline Integrity Threat Detection

    Get PDF
    This paper presents a novel pipeline integrity surveillance system aimed to the detection and classification of threats in the vicinity of a long gas pipeline. The sensing system is based on phase-sensitive optical time domain reflectometry ( ϕ\phi -OTDR) technology for signal acquisition and pattern recognition strategies for threat identification. The proposal incorporates contextual information at the feature level in a Gaussian Mixture Model-Hidden Markov Model (GMM-HMM)-based pattern classification system and applies a system combination strategy for acoustic trace decision. System combination relies on majority voting of the decisions given by the individual contextual information sources and the number of states used for HMM modelling. The system runs in two different modes: (1) machine+activity identification, which recognizes the activity being carried out by a certain machine, and (2) threat detection, aimed to detect threats no matter what the real activity being conducted is. In comparison with the previous systems based on the same rigorous experimental setup, the results show that the system combination from the contextual feature information and the GMM-HMM approach improves the results for both machine+activity identification (7.6% of relative improvement with respect to the best published result in the literature on this task) and threat detection (26.6% of relative improvement in the false alarm rate with 2.1% relative reduction in the threat detection rate).European CommissionMinisterio de Economía y CompetitividadComunidad de Madri

    Proyecto MENTOR en la ETSI de Telecomunicación: Cinco Años de Experiencia.

    Full text link
    Las ideas preliminares acerca de la necesidad de desarrollar los mecanismos de asistencia al alumno en al ETSI de Telecomunicación de la UPM surgieron a raíz del informe final de Evaluación de la Calidad de la Titulación de Ingeniero de Telecomunicación de la UPM. en el que se identificaba como punto débil la existencia de" alumnos insuficientemente informados" y como propuesta de mejora "estudiar nuevas formas de asistencia al alumno y potenciar las tutorías". Tras ese estudio, se creó un grupo de trabajo que abordó varias tareas en esa línea, y cuyos trabajos culminaron en el curso 2001-2002 con la propuesta de una iniciativa para planificar y desarrollar un plan de memorias por compañeros en la Escueta, que fue finalmente implantado en el curso2002-2003, extendiéndose en los años sucesivos a otras Escuelas de nuestra Universidad

    Evaluation of a Spoken Dialogue System for controlling a Hifi audio system

    Full text link
    In this paper a Bayesian Networks, BNs, approach to dialogue modelling [1] is evaluated in terms of a battery of both subjective and objective metrics. A significant effort in improving the contextual information handling capabilities of the system has been done. Consequently, besides typical dialogue measurement rates for usability like task or dialogue completion rates, dialogue time, etc. we have included a new figure measuring the contextuality of the dialogue as the number of turns where contextual information is helpful for dialogue resolution. The evaluation is developed through a set of predefined scenarios according to different initiative styles and focusing on the impact of the user’s level of experience

    Generación de una voz sintética en Castellano basada en HSMM para la Evaluación Albayzín 2008: conversión texto a voz

    Get PDF
    Este artículo describe el proceso de generación de una voz en castellano utilizando el corpus UPC ESMA de UPC proporcionado por la Evaluación Albayzín 2008: Conversión Texto a Voz. Se ha implementado una voz basada en selección de unidades mediante el paquete Multisyn de Festival y otra basada en Hidden Semi-Markov Models (HSMM) mediante HTS. Tras una breve evaluación de la calidad de ambas voces, se detallan las características principales de la voz basada en HSMM, sistema final presentado a la evaluación

    Utilización de prácticas con gráficos 3D animados en la enseñanza de la programación orientada a objetos

    Get PDF
    Se presenta una experiencia real basada en la utilización de prácticas con gráficos animados en tres dimensiones en la enseñanza de la programación orientada a objetos, indicando los resultados obtenidos tanto en relación al aprendizaje como en la motivación de los alumnos

    Propuesta metodológica para la mejora de la calidad y la excelencia de la educación superior en informática mediante el fomento del trabajo en equipo

    Get PDF
    Se presentan las ideas exploradas y aplicadas y los resultados obtenidos durante el curso 2001/02 con la intención de fomentar el trabajo en equipo entre los estudiantes de primero de Ingeniería en Informática de la Universidad de Alcalá (UA). El campo de trabajo elegido ha sido el de las asignaturas de Laboratorio de Programación, dado su carácter eminentemente práctico que permite el trabajo en equipo como forma natural de desarrollo
    corecore